我们将机器学习应用于寻找数值卡拉比市度量的问题。我们在使用Donaldson算法计算近似Ricci-FLAN度量的学习近似Ricci-Flat度量,以更加准确的“最佳”度量标准的“最佳”的“最佳”指标来扩展。我们表明,机器学习能够预测只有一个小型训练数据样本的Calabi-yau度量的K \“Ahler潜力。
translated by 谷歌翻译
肺癌是癌症相关死亡率的主要原因。尽管新技术(例如图像分割)对于改善检测和较早诊断至关重要,但治疗该疾病仍然存在重大挑战。特别是,尽管治愈性分辨率增加,但许多术后患者仍会出现复发性病变。因此,非常需要预后工具,可以更准确地预测患者复发的风险。在本文中,我们探讨了卷积神经网络(CNN)在术前计算机断层扫描(CT)图像中存在的分割和复发风险预测。首先,随着医学图像分割的最新进展扩展,剩余的U-NET用于本地化和表征每个结节。然后,确定的肿瘤将传递给第二个CNN进行复发风险预测。该系统的最终结果是通过随机的森林分类器产生的,该分类器合成具有临床属性的第二个网络的预测。分割阶段使用LIDC-IDRI数据集,并获得70.3%的骰子得分。复发风险阶段使用了国家癌症研究所的NLST数据集,并获得了73.0%的AUC。我们提出的框架表明,首先,自动结节分割方法可以概括地为各种多任务系统提供管道,其次,深度学习和图像处理具有改善当前预后工具的潜力。据我们所知,这是第一个完全自动化的细分和复发风险预测系统。
translated by 谷歌翻译
我们引入了一个新的差异隐私(DP)会计师,称为鞍点会计师(SPA)。SPA以准确而快速的方式近似保证DP机制的组成。我们的方法是受鞍点法的启发,这是一种统计中无处不在的数值技术。通过为SPA提供的近似误差,我们通过得出上限和下限来证明性能的严格保证。水疗中心的关键是与中心极限定理的大型探空方法的组合,我们通过指数倾斜与DP机制相对应的隐私损失随机变量来得出。水疗中心的一个关键优点是,它可以在$ n $折叠机制的$ n $折叠组成下持续运行。数值实验表明,水疗中心的准确性与更快的运行时的最新会计方法相当。
translated by 谷歌翻译
瓶颈问题是一系列重要的优化问题,最近在机器学习和信息理论领域引起了人们的关注。它们被广泛用于生成模型,公平的机器学习算法,对隐私保护机制的设计,并在各种多用户通信问题中作为信息理论性能界限出现。在这项工作中,我们提出了一个普通的优化问题家族,称为复杂性 - 裸露的瓶颈(俱乐部)模型,该模型(i)提供了一个统一的理论框架,该框架将大多数最先进的文献推广到信息理论隐私模型(ii)建立了对流行的生成和判别模型的新解释,(iii)构建了生成压缩模型的新见解,并且(iv)可以在公平的生成模型中使用。我们首先将俱乐部模型作为复杂性约束的隐私性优化问题。然后,我们将其与密切相关的瓶颈问题(即信息瓶颈(IB),隐私渠道(PF),确定性IB(DIB),条件熵瓶颈(CEB)和有条件的PF(CPF)连接。我们表明,俱乐部模型概括了所有这些问题以及大多数其他信息理论隐私模型。然后,我们通过使用神经网络来参数化相关信息数量的变异近似来构建深层俱乐部(DVCLUB)模型。在这些信息数量的基础上,我们提出了监督和无监督的DVClub模型的统一目标。然后,我们在无监督的设置中利用DVClub模型,然后将其与最先进的生成模型(例如变异自动编码器(VAE),生成对抗网络(GAN)以及Wasserstein Gan(WGAN)连接起来,Wasserstein自动编码器(WAE)和对抗性自动编码器(AAE)通过最佳运输(OT)问题模型。然后,我们证明DVCLUB模型也可以用于公平表示学习问题,其目标是在机器学习模型的训练阶段减轻不希望的偏差。我们对彩色命名和Celeba数据集进行了广泛的定量实验,并提供了公共实施,以评估和分析俱乐部模型。
translated by 谷歌翻译
我们考虑为多类分类任务生产公平概率分类器的问题。我们以“投射”预先培训(且可能不公平的)分类器在满足目标群体对要求的一组模型上的“投影”来提出这个问题。新的投影模型是通过通过乘法因子后处理预训练的分类器的输出来给出的。我们提供了一种可行的迭代算法,用于计算投影分类器并得出样本复杂性和收敛保证。与最先进的基准测试的全面数值比较表明,我们的方法在准确性权衡曲线方面保持了竞争性能,同时在大型数据集中达到了有利的运行时。我们还在具有多个类别,多个相互保护组和超过1M样本的开放数据集上评估了我们的方法。
translated by 谷歌翻译
在不同数据分布下由不同优化算法训练的机器学习模型可以表现出明显的泛化行为。在本文中,我们分析了噪声迭代算法训练的模型的概括。通过将噪声迭代算法连接到通信和信息理论中发现的附加噪声信道来源,我们推导出依赖于分布的泛化界限。我们的泛化界限在几种应用中,包括差异私有随机梯度下降(DP-SGD),联合学习和随机梯度Langevin动力学(SGLD)。我们通过数值实验展示了我们的界限,表明他们可以帮助了解神经网络泛化现象的最新实证观察。
translated by 谷歌翻译